Model Selection

Common Voice Fine-tuning

# Common Voice Fine-tuning

Disper Small Salam

Arabic speech recognition model fine-tuned based on OpenAI Whisper-small

Speech Recognition

Transformers Arabic

Whisper Medium Cv11 German Ct2

Automatic speech recognition model fine-tuned on the Common Voice 11.0 German dataset based on OpenAI's whisper-medium model

Speech Recognition

Transformers German

Whisper Tiny Chinese

A speech recognition model fine-tuned on the Common Voice 11.0 Chinese dataset based on OpenAI Whisper Tiny model

Speech Recognition

Transformers Chinese

Whisper Small Turkish V2

A speech recognition model fine-tuned on the Turkish Common Voice dataset based on OpenAI Whisper-small

Speech Recognition

Transformers Other

Speecht5 Finetuned Common Voice Be

Belarusian text-to-speech model based on Microsoft SpeechT5 architecture, fine-tuned on the Common Voice dataset

Speech Synthesis

Transformers Other

Speecht5 Tts Common Voice Uk

A Ukrainian text-to-speech model fine-tuned based on Microsoft's SpeechT5 architecture, trained using the Common Voice dataset

Speech Synthesis

Transformers Other

Whisper Large V2 Serbian

This is a speech recognition model fine-tuned on the Serbian Common Voice 11.0 dataset based on OpenAI Whisper Large-V2, achieving a word error rate of 10.76%.

Speech Recognition

Transformers Other

Whisper Large V2 Hindi 2.5k Steps

This is a Hindi automatic speech recognition (ASR) model fine-tuned based on OpenAI Whisper Large V2, trained on the Common Voice 11.0 dataset with a word error rate (WER) of 10.05%.

Speech Recognition

Transformers Other

Whisper Large V2 Hi V3

Hindi speech recognition model fine-tuned based on OpenAI Whisper Large-v2, achieving a word error rate of 11.3% on the Common Voice 11.0 Hindi test set

Speech Recognition

Transformers Other

Whisper Medium French

A French speech recognition model fine-tuned on the common_voice_11_0 dataset based on openai/whisper-medium, achieving a standardized WER of 11.1406, outperforming the original model.

Speech Recognition

Transformers French

Exp W2v2t Sv Se R Wav2vec2 S418

A Swedish automatic speech recognition model fine-tuned from facebook/wav2vec2-large-robust, supporting 16kHz sampling rate audio input.

Speech Recognition

Exp W2v2t Fr Xls R S250

An automatic speech recognition model fine-tuned using the Common Voice 7.0 French dataset, based on the facebook/wav2vec2-xls-r-300m model

Speech Recognition

Transformers French

Exp W2v2t Ja Vp It S544

A Japanese automatic speech recognition model fine-tuned using the training set of Common Voice 7.0 (Japanese version), based on the facebook/wav2vec2-large-it-voxpopuli model.

Speech Recognition

Transformers Japanese

Exp W2v2t Ja Unispeech Sat S884

A Japanese automatic speech recognition model fine-tuned based on the microsoft/unispeech-sat-large model, trained using the Common Voice 7.0 Japanese dataset.

Speech Recognition

Transformers Japanese

Exp W2v2t Ja Wavlm S729

A Japanese automatic speech recognition model fine-tuned based on microsoft/wavlm-large, trained using the Common Voice 7.0 Japanese dataset

Speech Recognition

Transformers Japanese

Exp W2v2t Ja Unispeech S569

A Japanese automatic speech recognition model fine-tuned using the Common Voice 7.0 (Japanese) dataset, based on the microsoft/unispeech-large-1500h-cv model

Speech Recognition

Transformers Japanese

Exp W2v2t En Unispeech Sat S459

An English speech recognition model fine-tuned based on Microsoft's UniSpeech-SAT-Large model, supporting 16kHz sampled audio input.

Speech Recognition

Transformers English

Wav2vec2 Large Xlsr 53 German Cv9

This is an automatic speech recognition (ASR) model fine-tuned on the German Common Voice 9.0 dataset, based on Facebook's wav2vec2-large-xlsr-53 model.

Speech Recognition

Transformers German

Wav2vec2 Large Xls R 300m Turkish Colab

This model is a speech recognition model fine-tuned on the Common Voice Turkish dataset based on facebook/wav2vec2-xls-r-300m.

Speech Recognition

Wav2vec2 Large Xls R 300m Hindi Home Colab 11

This model is a Hindi speech recognition model fine-tuned on the Common Voice dataset based on facebook/wav2vec2-xls-r-300m

Speech Recognition

Wav2vec2 Large Xls R 300m Ia

An automatic speech recognition model fine-tuned on the Common Voice 8.0 international language dataset based on facebook/wav2vec2-xls-r-300m

Speech Recognition

Transformers Other

Wav2vec2 Large Xlsr 53 Ir

An Irish Gaelic automatic speech recognition model fine-tuned on wav2vec2-large-xlsr-53, trained on the Common Voice 7.0 dataset

Speech Recognition

Wav2vec2 Xls R 1b De Cv8

An automatic speech recognition model fine-tuned on the Common Voice 8 German dataset based on facebook/wav2vec2-xls-r-1b

Speech Recognition

Transformers German

Wav2vec2 Large Xlsr Eo

A speech recognition model fine-tuned for Esperanto using the Common Voice dataset, based on the facebook/wav2vec2-large-xlsr-53 model.

Speech Recognition Other

Wav2vec2 Xlsr 300m German Truecase

Based on Facebook's wav2vec2-xls-r-300m model, fine-tuned on the Common Voice German dataset, supporting German speech recognition with preserved text case information.

Speech Recognition

An English fine-tuned speech recognition model based on facebook/wav2vec2-large, using the Common Voice dataset, supporting 16kHz sampled audio input.

Speech Recognition

Wav2vec2 Large Xlsr 53 Hk

A speech recognition model fine-tuned on Cantonese (using the Common Voice dataset) based on facebook/wav2vec2-large-xlsr-53

Speech Recognition

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase